1 | pip install jieba |
精确模式
将文本精确地切开,分词后无冗余,适合文本分词
jieba.cut( “中国是一个伟大的国家” ) –> 生成器[‘中国’, ‘是’, ‘一个’, ‘伟大’, ‘的’, ‘国家’]
jieba.lcut( “中国是一个伟大的国家” ) –> [‘中国’, ‘是’, ‘一个’, ‘伟大’, ‘的’, ‘国家’]
全模式
把文本中所有可能成词的词语都扫描出来,速度快,存在冗余,不能解决歧义
jieba.cut(“中国是一个伟大的国家”, cut_all=True) –>生成器[‘中国’, ‘国是’, ‘一个’, ‘伟大’, ‘的’, ‘国家’]
jieba.lcut(“中国是一个伟大的国家”, cut_all=True) –>[‘中国’, ‘国是’, ‘一个’, ‘伟大’, ‘的’, ‘国家’]
搜索引擎模式
在精确模式基础上,对长词再次切分,提高召回率
jieba.cut_for_search(‘新时代中国特色社会主义’)
[‘新’, ‘时代’, ‘中国’, ‘特色’, ‘社会’, ‘会主’, ‘主义’, ‘社会主义’]
jieba.lcut_for_search(‘新时代中国特色社会主义’)
[‘新’, ‘时代’, ‘中国’, ‘特色’, ‘社会’, ‘会主’, ‘主义’, ‘社会主义’]
分词词典添加新词
jieba.add_word(“盘它”)
范例
1 | >>>s = "习近平总书记提出了新时代中国特色社会主义思想" |
1 | #读入白鹿原,分词后输出最长单词。 |
1 | ##《白鹿原》原著内容,请读入内容,分词后输出长度大于2且最多的单词。 |